在本文中,我们研究了具有基于一般模型的函数近似值的均值控制(MFC)和均值野外游戏(MFC)和均值野外游戏(MFC)的基本统计效率。我们引入了一个称为基于均值模型的Eluder Dimension(MF-MBED)的新概念,该概念构成了均值模型类的固有复杂性。我们表明,富裕的平均RL问题家族表现出低MF膜。此外,我们提出了基于最大似然估计的al-gorithms,它可以返回MFC或MFG的ε-纳什平衡势。总体样品复合物仅取决于多项式膜,该MF膜可能比州行动空间的大小低得多。与先前的作品相比,我们的结果只需要刻薄的假设,包括可靠性和Lipschitz的连续性。
主要关键词